期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 多模态特征的越南语语音识别文本标点恢复
赖华, 孙童, 王文君, 余正涛, 高盛祥, 董凌
《计算机应用》唯一官方网站    2024, 44 (2): 418-423.   DOI: 10.11772/j.issn.1001-9081.2023020231
摘要99)   HTML10)    PDF (3010KB)(38)    收藏

越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 基于源语言句法增强解码的神经机器翻译方法
龚龙超, 郭军军, 余正涛
《计算机应用》唯一官方网站    2022, 42 (11): 3386-3394.   DOI: 10.11772/j.issn.1001-9081.2021111963
摘要299)   HTML6)    PDF (1267KB)(145)    收藏

当前性能最优的机器翻译模型之一Transformer基于标准的端到端结构,仅依赖于平行句对,默认模型能够自动学习语料中的知识;但这种建模方式缺乏显式的引导,不能有效挖掘深层语言知识,特别是在语料规模和质量受限的低资源环境下,句子解码缺乏先验约束,从而造成译文质量下降。为了缓解上述问题,提出了基于源语言句法增强解码的神经机器翻译(SSED)方法,显式地引入源语句句法信息指导解码。所提方法首先利用源语句句法信息构造句法感知的遮挡机制,引导编码自注意力生成一个额外的句法相关表征;然后将句法相关表征作为原句表征的补充,通过注意力机制融入解码,共同指导目标语言的生成,实现对模型的先验句法增强。在多个IWSLT及WMT标准机器翻译评测任务测试集上的实验结果显示,与Transformer基线模型相比,所提方法的BLEU值提高了0.84~3.41,达到了句法相关研究的最先进水平。句法信息与自注意力机制融合是有效的,利用源语言句法可指导神经机器翻译系统的解码过程,显著提高译文质量。

图表 | 参考文献 | 相关文章 | 多维度评价
3. 融合句法指导与字符注意力机制的案情阅读理解方法
何正海, 线岩团, 王蒙, 余正涛
计算机应用    2021, 41 (8): 2427-2431.   DOI: 10.11772/j.issn.1001-9081.2020101568
摘要488)      PDF (813KB)(566)    收藏
案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情阅读理解方法。通过融合句法信息及中文字符信息,提升模型对案情文本的编码能力。在法研杯2019阅读理解数据集上的实验结果表明,所提出的方法与基线模型相比EM值提升了0.816,F1值提升了1.809%。
参考文献 | 相关文章 | 多维度评价
4. 融合单语语言模型的汉越伪平行语料生成
贾承勋, 赖华, 余正涛, 文永华, 于志强
计算机应用    2021, 41 (6): 1652-1658.   DOI: 10.11772/j.issn.1001-9081.2020071017
摘要330)      PDF (1333KB)(303)    收藏
神经机器翻译在资源丰富的语种上取得了良好的翻译效果,但是由于数据稀缺问题在汉语-越南语这类低资源语言对上的性能不佳。目前缓解该问题最有效的方法之一是利用现有资源生成伪平行数据。考虑到单语数据的可利用性,在回译方法的基础上,首先将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,然后在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行数据,最后将生成的语料添加到原始小规模语料中训练最终翻译模型。在汉越翻译任务上的实验结果表明,与普通的回译方法相比,通过融合语言模型生成的伪平行数据使汉越神经机器翻译的BLEU值提升了1.41个百分点。
参考文献 | 相关文章 | 多维度评价
5. 融合句法信息的无触发词事件检测方法
汪翠, 张亚飞, 郭军军, 高盛祥, 余正涛
《计算机应用》唯一官方网站    2021, 41 (12): 3534-3539.   DOI: 10.11772/j.issn.1001-9081.2021060928
摘要242)   HTML6)    PDF (697KB)(94)    收藏

事件检测(ED)是信息抽取领域中最重要的任务之一,旨在识别文本中特定事件类型的实例。现有的ED方法通常采用邻接矩阵来表示句法依存关系,然而邻接矩阵往往需要借助图卷积网络(GCN)进行编码来获取句法信息,由此增加了模型的复杂度。为此,提出了融合句法信息的无触发词事件检测方法。通过将依赖父词及其上下文转换为位置标记向量,并在模型源端以无参数的方式融入依赖子词的单词嵌入来加强上下文的语义表征,而不需要经过GCN进行编码;此外,针对触发词的标注费时费力的问题,设计了基于多头注意力机制的类型感知器,以对句子中潜在的触发词进行建模,实现无触发词的事件检测。为了验证所提方法的性能,在ACE2005数据集以及低资源越南语数据集上进行了实验。其中,在ACE2005数据集上与图变换网络事件检测(GTN-ED)方法相比,所提方法的F1值提升了3.7%;在越南语数据集上,与二分类的方法类型感知偏差注意机制神经网络(TBNNAM)相比,所提方法的F1值提升了9%。结果表明,通过在Transformer中融入句法信息能有效地连接句子中分散的事件信息来提高事件检测的准确性。

图表 | 参考文献 | 相关文章 | 多维度评价
6. 基于跨语言神经主题模型的汉越新闻话题发现方法
杨威亚, 余正涛, 高盛祥, 宋燃
计算机应用    2021, 41 (10): 2879-2884.   DOI: 10.11772/j.issn.1001-9081.2020122054
摘要317)      PDF (758KB)(187)    收藏
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用 K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。
参考文献 | 相关文章 | 多维度评价
7. 基于句子关联图的汉越双语多文档新闻观点句识别
王剑, 唐珊, 黄于欣, 余正涛
计算机应用    2020, 40 (10): 2845-2849.   DOI: 10.11772/j.issn.1001-9081.2020020280
摘要349)      PDF (815KB)(398)    收藏
传统的观点句识别多利用句子内部的情感特征进行分类,而在跨语言的多文档观点句识别任务中,不同语言、不同文档的句子之间具有密切的关联,这些关联特征对于观点句识别有一定的支撑作用。因此,提出一种基于双向长短期记忆(Bi-LSTM)网络框架并融入句子关联特征的汉越双语多文档新闻观点句识别方法。首先提取汉越双语句子的情感要素和事件要素,构建句子关联图,并利用TextRank算法得到句子关联特征;然后基于双语词嵌入和Bi-LSTM将汉语和越语的新闻文本编码在同一个语义空间;最后联合考虑句子编码特征和关联特征进行观点句识别。理论分析和模拟结果表明,融入句子关联图能够有效地提升多文档观点句识别的准确率。
参考文献 | 相关文章 | 多维度评价
8. SMFCC:一种新的语音信号特征提取方法
汪海彬, 余正涛, 毛存礼, 郭剑毅
计算机应用    2016, 36 (6): 1735-1740.   DOI: 10.11772/j.issn.1001-9081.2016.06.1735
摘要692)      PDF (874KB)(389)    收藏
针对说话人识别系统中存在的有效语音特征提取以及噪声影响的问题,提出了一种新的语音特征提取方法——基于S变换的美尔倒谱系数(SMFCC)。该方法是在传统美尔倒谱系数(MFCC)的基础上利用S变换的二维时频多分辨率特性,以及奇异值分解(SVD)方法的二维时频矩阵有效去噪性,并结合相关统计分析方法最终获得语音特征。采用TIMIT语音数据库,将所提的特征和现有特征进行对比实验。SMFCC特征的等错误率(EER)和最小检测代价(MinDCF)均小于线性预测倒谱系数(LPCC)、MFCC及其结合方法LMFCC,比MFCC的EER和MinDCF08分别下降了3.6%与17.9%。实验结果表明所提方法能够有效去除语音信号中的噪声,提升局部分辨率。
参考文献 | 相关文章 | 多维度评价
9. 基于灰色关联分析的中文新闻事件关联性识别
刘盼盼, 洪旭东, 郭剑毅, 余正涛, 文永华, 陈玮
计算机应用    2016, 36 (2): 408-413.   DOI: 10.11772/j.issn.1001-9081.2016.02.0408
摘要407)      PDF (895KB)(883)    收藏
针对中文新闻事件关联性识别准确率较低的问题,提出一种基于灰色关联分析(GRA)的中文新闻事件关联性识别算法,该算法是一种多因素分析法。首先,通过分析中文新闻事件的特性,提出三个影响事件关联性的因素,分别为触发词的共现性、事件的共享名词以及事件句的相似度;其次,对多个影响因素进行量化处理,计算每个影响因素的影响权值;最后,运用GRA将多个影响因素结合在一起,建立事件之间的灰色关联性分析模型,实现事件关联性识别。通过实验验证了三个影响因素对事件关联性识别的有效性,而且相对于只考虑单一影响因素的关联性识别算法,所提算法提高了事件关联性识别的准确率。
参考文献 | 相关文章 | 多维度评价
10. 基于生成提示的无监督文本情感转换方法
黄于欣 徐佳龙 余正涛 侯书楷 周家啟
《计算机应用》唯一官方网站    DOI: 10.11772/j.issn.1001-9081.2023091302
预出版日期: 2024-03-15

11. CCML2021+222:融合句法信息的无触发词事件检测方法
汪翠 张亚飞 郭军军 高盛祥 余正涛
  
录用日期: 2021-06-17

12. BigData2023-P00186 基于多路信息聚合协同解码的单通道语音增强
莫尚斌 王文君 董凌 高盛祥 余正涛